RODS: Síntesis online de datos guiada por recompensas para agentes multi-turno
RODS sintetiza datos online guiado por recompensa para agentes multi-turno, logrando rendimiento comparable con 20x menos trayectorias que pipelines offline.
RODS sintetiza datos online guiado por recompensa para agentes multi-turno, logrando rendimiento comparable con 20x menos trayectorias que pipelines offline.
Descubre RODS, un método que sintetiza datos en línea para entrenar agentes multi-turno con hasta 20x menos muestras, usando la varianza de recompensa como